# -*- coding: utf-8 -*-

#Questo script stampa i top 1000 domini con la relativa categoria secondo http://www.alexa.com/topsites
#utilità dello script: se ha senso, inserire i domini con la categoria, nel db

#osservzione: per adesso non mi è permesso ricavarmi la categoria

#import os
import urllib2
#import sys
#import re
#import string
from BeautifulSoup import BeautifulSoup

i = 0
cont = 1

while i < 20:
    myURL = "http://www.alexa.com/topsites/global;%s" % (i,) 

    data = urllib2.urlopen(myURL).read()

    #print data #stampa di test

    soup = BeautifulSoup(data)
    for tag in soup.findAll("a", href=True):
        if tag["href"].find("/siteinfo/") == 0 and not tag["href"].find("#") > 0:
            print cont, tag["href"].replace("/siteinfo/","") #stampa di test
        cont += 1
    i += 1
   
